查看原文
其他

面试系列 | 大数据、数仓大厂面试锦囊(二)

Editor's Note

本是金三银四,今年貌似并不乐观。上班996,在家007的我们,更应该未雨绸缪,弯道超车,提升自身技术硬核实力。

The following article is from 数据爱好者社区 Author 鬼鲛

系列回顾:面试真经 | 大数据/数仓面试灵魂30问(一)

0x00 前言

本是金三银四,今年貌似并不乐观。之前云神有分享过一篇文章:面试真经 | 大数据/数仓面试灵魂30问 社区小伙伴反馈梳理总结每一个题目后,顺利拿到offer,再次送上恭喜与祝贺!这篇文章更多的偏向于初中级,概念思想和理论性更强,今天分享的文章更偏向于高开/资深大数据/数仓工程师。

此时,上班996,在家007的我们,更应该未雨绸缪,弯道超车,提升自身技术硬核实力。

下面主要总结了三个大厂(一二线互联网公司)的面试题目,以供大家参考学习,提升自己。

0x01 大厂A

  1. 数据仓库是怎么分层的,为啥要这么分(结合项目具体讲)

  2. OLAP Cube是什么?怎么构建?为啥要这么构建(结合项目业务讲)

  3. 数仓的缓慢变化维是什么?怎么处理?为啥这么处理?(结合项目业务讲)

  4. 规模比较大的快速变化维怎么处理?为啥这么处理(结合项目业务讲)

  5. 数仓建模的方式?(二种)你们用的 哪种?为啥要用这种?好处是什么?

  6. 维度建模是什么?为啥要用维度建模?(结合项目业务讲)

0x02 大厂B

  • hive性能调优,结合例子讲讲

  • spark性能调优,结合例子讲讲

  • 你觉得你哪个项目做的最好,讲讲你在里面发挥社么作用了

  • 你觉得好的数据仓库话应该是啥样子的

  • 用过Flink吗?时间/水印/窗口都讲一下,Flink SQL难点在哪?

  • 实时的话storm和spark streaming的区别,为啥当时项目要用spark streaming

  • 你觉得你以往的工程经验和技能哪个优势大,对阿里这边会有社么帮助

  • Hbase性能调优,讲一下。从哪些方面,可举栗

0x03 大厂C

  1. 1T的文件的存储方式有哪几种?用分布式的存储方式来讲?

  2. Hbase的数据统计有哪几种方式?

  3. Kafka的底层存储是怎么样子的,详细讲讲

  4. Hadoop集群的搭建过程,进程名,高可用如何实现?

  5. 平时开发spark应用程序用的哪种语言,比如(scala,java,python),选取语言的原因是啥?

  6. Hbase的rowKey设计

  7. spark实时处理kafka的消息如何保证message不丢失,如何设计

  8. Hbase使用种遇到啥问题,如何性能调优

  9. ELK用过吗?大概讲讲

  10. 如果让你设计一个分布式系统,大概过程是啥样的,讲一下

0xFF  寄语

感谢社区老师把真实面试经历面试真题分享于我们,作为面试参考,已可谓是面试锦囊。希望能抛砖引玉,对同学们有所帮助。可先自行整理答案,相信一定会大有收获!疫情过后,我们一起看春暖花开。升职加薪,加油!




看完本文有收获?请转发分享给更多人

关注「数据爱好者社区」加星标,提升数据技能

后台回复:画像、中台等,还可领取资料哦



每天进步一点点

推荐阅读


(点击标题可跳转阅读)

面试真经 | 大数据/数仓面试灵魂30问

我一个二本大学生是如何校招拿下阿里Offer的

强烈推荐 10 款珍藏的 Chrome 浏览器插件

年后跳槽到阿里,我有话想说......

大数据可视化BI工具,呕血总结

数据同步之道(Sqoop、dataX、Kettle)


关注「数据爱好者社区」加星标,提升数据技能


数据爱好者社区

技术干货 资源福利

武汉加油!中国加油!

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存